零射击动作识别(ZSAR)方法的成功与用于转移知识的语义侧信息的性质本质上相关,尽管该方面尚未在文献中进行研究。这项工作基于动作对象和动作描述性句子的关系介绍了一种新的ZSAR方法。我们证明,使用描述句子代表所有对象类时,当使用释义估计方法用作嵌入器时,会生成准确的对象相关估计。我们还展示了如何仅基于一组句子而没有硬人标签的一组句子来估算一组动作类别的概率。在我们的方法中,将这两个全局分类器(即使用在整个视频中计算的功能)的概率组合在一起,从而产生了有效的转移知识模型进行动作分类。我们的结果是Kinetics-400数据集中的最新结果,在ZSAR评估下对UCF-101具有竞争力。我们的代码可在https://github.com/valterlej/objsentzsar上找到
translated by 谷歌翻译
RGB-D数据对于解决计算机视觉中的许多问题至关重要。已经提出了数百个包含各种场景的公共RGB-D数据集,例如室内,室外,空中,驾驶和医疗。这些数据集对不同的应用程序很有用,对于解决经典的计算机视觉任务(例如单眼深度估计)是基础。本文审查并分类了包括深度信息的图像数据集。我们收集了203个数据集,其中包含可访问的数据,并将它们分为三类:场景/对象,身体和医疗。我们还提供了不同类型的传感器,深度应用程序的概述,并研究了包含深度数据的数据集的使用和创建的趋势和未来方向,以及如何将它们应用于研究中可推广的机器学习模型的开发。单眼深度估计场。
translated by 谷歌翻译
最近,几种方法探索了视频中对象的检测和分类,以便以显着的结果执行零射击动作识别。在这些方法中,类对象关系用于将视觉模式与语义侧信息相关联,因为这些关系也倾向于出现在文本中。因此,Word Vector方法将在其潜在的陈述中反映它们。灵感来自这些方法,并通过视频字幕来描述不仅具有一组对象但具有上下文信息的事件的能力,我们提出了一种方法,其中录像模型称为观察者,提供不同和互补的描述性句子。我们证明,在ZSAR中,代表具有描述性句子的视频而不是深度特征是可行的,并且自然而然地减轻了域适应问题,因为我们在UCF101数据集中达到了最先进的(SOTA)性能,并且在HMDB51上竞争性能他们的训练集。我们还展示了Word Vectors不适合构建我们描述的语义嵌入空间。因此,我们建议用从互联网上获取的搜索引擎获取的文档提取的句子代表课程,而没有任何人类评估描述的描述。最后,我们构建了在多个文本数据集上预先培训的基于BERT的eMbedder的共享语义空间。我们表明,这种预训练对于弥合语义差距至关重要。对于这两种类型的信息,视觉和语义,对此空间的投影很简单,因为它们是句子,使得在此共享空间中的最近邻居规则能够分类。我们的代码可在https://github.com/valterlej/zsarcap上找到。
translated by 谷歌翻译
我们介绍一种基于复杂事件(例如,分钟)可以分解成更简单的事件(例如,几秒钟)的前提的方法来学习无监督的语义视觉信息,并且这些简单事件在多个复杂事件中共享。我们将一个长视频分成短帧序列,以利用三维卷积神经网络提取它们的潜在表示。群集方法用于对产生视觉码本的组表示(即,长视频由集群标签给出的整数序列表示)。通过对码本条目编码共生概率矩阵来学习密集的表示。我们展示了该表示如何利用浓密视频标题任务的性能,只有视觉功能。由于这种方法,我们能够更换双模变压器(BMT)方法中的音频信号,并产生具有可比性的时间提案。此外,与Vanilla变压器方法中的我们的描述符连接视觉信号,与仅探索视觉功能的方法相比,在标题中实现最先进的性能,以及具有多模态方法的竞争性能。我们的代码可在https://github.com/valterlej/dvcusi获得。
translated by 谷歌翻译
修剪是一种众所周知的机制,用于降低深度卷积网络的计算成本。然而,研究表明,作为正规化形式修剪的可能性,这减少了过度拟合并改善了泛化。我们证明,这种战略系列提供了额外的益处,超出了计算绩效和泛化。我们的分析表明,来自卷积网络的修剪结构(滤波器和/或层)不仅增加了泛化,而且增加了对抗性图像的鲁棒性(具有内容修改的自然图像)。由于修剪降低了网络容量并提供了正规化,因此可以获得对抗对抗图像的有效工具。与需要对对抗性图像和仔细正规化的培训需要培训的有希望的防御机制,我们表明修剪仅考虑自然图像(例如,标准和低成本训练)。我们在几种对抗攻击和架构上确认这些结果;因此,暗示了作为对抗对抗性图像的新型防御机制修剪的潜力。
translated by 谷歌翻译
机器学习(ML)团队经常在项目上工作,只是为了意识到模型的性能还不够好。确实,支持ML的系统的成功涉及将数据与业务问题保持一致,将其转化为ML任务,尝试算法,评估模型,捕获用户的数据等。文献表明,支持ML的系统很少是基于此类问题的精确规格而构建的,这导致ML团队由于错误的假设而变得不一致,这可能会影响此类系统的质量和整体项目成功。为了帮助解决此问题,本文将我们的工作描述为基于透视的方法,用于指定启用ML的系统。该方法涉及分析一组45毫升关注,分为五个观点:目标,用户体验,基础架构,模型和数据。本文的主要贡献是提供两个新的工件,可用于帮助指定支持ML的系统:(i)基于透视的ML任务和关注图以及(ii)基于透视的ML规范模板。
translated by 谷歌翻译
我们引入了一个神经隐式框架,该框架利用神经网络的可区分特性和点采样表面的离散几何形状,以将它们作为神经隐含函数的级别集近似。为了训练神经隐式函数,我们提出了近似签名距离函数的损失功能,并允许具有高阶导数的术语,例如曲率的主要方向之间的对齐方式,以了解更多几何细节。在训练过程中,我们考虑了基于点采样表面的曲率的不均匀采样策略,以优先考虑点更多的几何细节。与以前的方法相比,这种抽样意味着在保持几何准确性的同时更快地学习。我们还介绍了神经表面(例如正常矢量和曲率)的分析差异几何公式。
translated by 谷歌翻译
基于深度学习的脑磁共振成像(MRI)重建方法有可能加速MRI采集过程。尽管如此,科学界缺乏适当的基准,以评估高分辨率大脑图像的MRI重建质量,并评估这些所提出的算法在存在小而且预期的数据分布班次存在下的表现。多线圈磁共振图像(MC-MRI)重建挑战提供了一种基准,其目的在于使用高分辨率,三维,T1加权MRI扫描的大型数据集。挑战有两个主要目标:1)比较该数据集和2)上的不同的MRI重建模型,并评估这些模型的概括性,以通过不同数量的接收器线圈获取的数据。在本文中,我们描述了挑战实验设计,并总结了一系列基线和艺术脑MRI重建模型的结果。我们提供有关目前MRI重建最先进的相关比较信息,并突出挑战在更广泛的临床采用之前获得所需的普遍模型。 MC-MRI基准数据,评估代码和当前挑战排行榜可公开可用。它们为脑MRI重建领域的未来发展提供了客观性能评估。
translated by 谷歌翻译